[アップデート]Amazon Comprehendで日本語テキストの分析ができるようになりました
自然言語処理サービスのAmazon Comprehendで、日本語を含む以下の6言語のテキスト分析ができるようになりました!
- 日本語
- 中国語(繁体字)
- 中国語(簡体字)
- 韓国語
- ヒンディー語
- アラビア語
【AWS公式】Amazon Comprehend Adds Six New Languages
Amazon Comprehendとは
Amazon Comprehend(以下、Comprehend)とは、機械学習を利用した自然言語処理(NLP)サービスです。 指定したテキストを分析し、キーフレーズの検出や感情の判定などを行うことができます。
今回、日本語を含む6言語が新たに追加されました。
以前からテキストの言語そのものの判定(Detect Dominant Language)は日本語も判定可能でしたが、テキストの詳細な分析もできるようになったので、これは嬉しいアップデートです!
(※2019/11/7時点でサポートされているのはエンティティ/キーフレーズ/感情の判定のみで、構文解析や分類をカスタマイズする機能はまだサポートされていません) 参考:Languages Supported in Amazon Comprehend
日本語のテキスト分析やってみる
それでは、早速試してみましょう。
マネジメントコンソールから、comprehendなどと入力して「Amazon Comprehend」を選択します。
※2019/11/7時点、Comprehendはアジアパシフィック (東京)では利用できませんので、必要に応じて米国東部 (バージニア北部)など利用可能なリージョンでお試しください。
左側のメニューを展開し、「Real-time anaylysis」を選択します。
「Real-time analysis」では、テキストを入力して分析を実行すると、即時に分析結果詳細を見ることができます。
初期状態では英語のサンプルテキストが入力されていますが、これを日本語のテキストにしてみます。 今回は、Amazon Comprehendサービスの紹介文を利用させていただきました。
テキストを入力し「Analyze」をクリックすると、テキストの分析結果が画面下部の「Insigts」に表示されます。 以下、それぞれ項目ごとに見ていきます。
Entities
「Entities」では、単語や文章の集合から属するエンティティタイプ(以下参照)及びその信頼度が判定されます。
Type | Description |
---|---|
COMMERCIAL_ITEM | A branded product(プロダクト名) |
DATE | A full date (for example, 11/25/2017), day (Tuesday), month (May), or time (8:30 a.m.)(日付) |
EVENT | An event, such as a festival, concert, election, etc.(イベントに関する単語) |
LOCATION | A specific location, such as a country, city, lake, building, etc.(地名や国、建物など) |
ORGANIZATION | Large organizations, such as a government, company, religion, sports team, etc.(会社名や組織) |
OTHER | Entities that don't fit into any of the other entity categories(リスト上のタイプに属さないもの) |
PERSON | Individuals, groups of people, nicknames, fictional characters(人名) |
QUANTITY | A quantified amount, such as currency, percentages, numbers, bytes, etc.(数量) |
TITLE | An official name given to any creation or creative work, such as movies, books, songs, etc.(創作物のタイトル) |
「Comprehend」がプロダクト名と判定されており、他にも数量系の判定が多くされていますね。 (「な宝物」はおそらく誤判定な感じですね…)
Key phrases
「Key phrases」では、テキスト内の重要なフレーズを抽出することができます。 テキストから特別な事柄を説明する名詞(特徴的な名詞)を検出します。
「Amazon Comprehend」というプロダクト名や「機械学習」「自然言語処理」といったテキスト内で重要と思われるフレーズを抽出できているように思います。
Language
「Language」では、テキストの主要言語を判定することができます。 こちらは、今回のアップデート以前も日本語を判定することは可能でした。
言語の判定のみであれば、現状でもかなりの数の言語を判定することがでます。
Amazon Comprehend - Detect the Dominant Language
Sentiment
「Sentiment」では、テキストの感情を判定することができます。 以下の4種類の感情をスコアリングして返します。
- Positive
- Negative
- Mixed
- Neutral
感情的にはほぼ中立、ほのかにポジティブの様です :) 個人的には特に気になっている機能で、他にも色々なテキストで試してみたいところです。
Syntax
「Syntax」では、テキストの構文解析を行うことができますが、残念ながら現時点で日本語は未対応です。
おわりに
Comprehendで日本語のテキスト分析ができるようになりました。 お客様フィードバックの分析やチャットボットへの適用など、使い方次第ではかなり応用が効くサービスだと思うので、これからどんどん検証していきたいと思います!